Approches endogène et exogène pour améliorer la segmentation thématique de documents

نویسنده

  • Olivier Ferret
چکیده

Topic segmentation was addressed by a large amount of work from which it is not easy to draw conclusions, especially about the need for knowledge. In this article, we propose in the same framework two methods for improving the results of a topic segmenter based on lexical reiteration. The first one is endogenous and exploits the distributional similarity of the words of a document for discovering its topics. These topics are then used to facilitate the detection of topical similarity between discourse units. The second approach achieves the same goal by relying on an external resource, that is a network of lexical co-occurrences built from a large corpus. These two approaches are also combined. An evaluation of these approaches and their combination is performed in a reference framework and shows the interest of this combination. MOTS-CLÉS : analyse thématique, segmentation thématique, découverte de thèmes, cooccurrences lexicales.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Découvrir les thèmes d'un document pour en améliorer la segmentation thématique

La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons ...

متن کامل

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

Evaluating resource acquisition tools for Information Extraction

This paper evaluates two different approaches for the elaboration of semantic classes. The framework is an Information Extraction, which needs large amount of domain-dependent resources. An endogenous approach (corpus-based learning) is contrasted with a heterogeneous one (the use of a large semantic network). The two techniques are evaluated. Cet article vise à évaluer deux approches différent...

متن کامل

Un aperçu de la fouille visuelle de données

Résumé. Nous présentons dans cet article un aperçu de la fouille visuelle de données. Pour commencer, nous situons ce domaine par rapport à d’autres approches et nous en rappelons les principes fondateurs. Ensuite, nous montrons qu’il existe de nombreux points de vue pour aborder les travaux en fouille visuelle de données : les données ou connaissances à visualiser, la tâche à accomplir, la rep...

متن کامل

Intégration de règles d'association pour améliorer la recherche d'informations XML

RÉSUMÉ. La reformulation de requêtes constitue un moyen d’améliorer la recherche d’informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règle...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • TAL

دوره 47  شماره 

صفحات  -

تاریخ انتشار 2006